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Предложен новый метод сокращения обучающих выборок СпаОС (С@па-депзйу-сещег те о9), основанный 
на покрытии признакового пространства сеткой и нахождении единственного объекта клетки как объекта 
новой обучающей выборки. Предложен принцип формирования сетки и способы построения объектов 
сокращенной обучающей выборки. Для определения эффективности предложенного метода проведен 
сравнительный экспериментальный анализ с известными методами сокращения обучающих выборок, 
показавший эффективность метода СпарС. 


Введение 


Большинство известных алгоритмов построения решающих правил в обучающихся систе- 
мах распознавания используют в качестве обучающей выборки специально отобранное под- 
множество обучающих объектов [1]. Примерами таких алгоритмов могут быть алгоритм ВеНеЕ [2], 
в котором выбираются «средние» объекты выборки, и метод опорных векторов ЗУМ [3], в ко- 
тором решающее правило строится по объектам, лежащим вблизи межклассовой границы. Ис- 
пользование сокращенных обучающих выборок позволяет повысить скорость и качество клас- 
сификации, существенно уменьшить объем хранимых данных. 

Наиболее известными методами сокращения обучающих выборок являются: ММК (пеагез 
петоПБог гие), ГУО (еагите уесюг диапитайоп), АБМ (АзеаБап’$ депзИу-Базе@ тефоа), 
ЭТОГР [4], [5]. Идеей метода ММК [4] является получение минимального подмножества то- 
чек, таких, что находятся ближе всего к К-ближайшим соседним объектам. В алгоритме Е\О [4] 
область признаков делится на число отдельных регионов и для каждого региона строится век- 
тор признаков нового объекта. Метод АШМ [4] состоит из двух основных этапов: выбор 
максимальной плотности точек, основанной на локальной оценке плотности, и отсечение 
других точек, которые лежат рядом с выбранными точками. Идея метода ЗТОГР [5] заключает- 
ся в нахождении «напряженных» пограничных точек, на основе которых выполняется проб- 
ное распознавание всех точек обучающей выборки по правилу ближайшего соседа. Среди не 
верно классифицированных точек выбирается та, у которой максимальный вес, и она добав- 
ляется к набору пограничных. Рассмотренные выше алгоритмы сокращения обучающих выбо- 
рок имеют общую идею, идентичную задаче кластеризации, которая состоит в разбиении исход- 
ной выборки на подмножества и их обработку. На сегодняшний день одним из наиболее 
эффективных современных алгоритмов кластеризации является сеточный алгоритм [6]. Основной 
особенностью алгоритма является переход от кластеризации отдельных объектов к обработке 
объектов, принадлежащих некоторой клетке сеточной структуры. Особенно эффективно дан- 
ный алгоритм применяется для кластеризации выборок большого объема и позволяет выде- 
лить кластеры сложной формы. В данной работе рассматривается возможность применения 
сеточной структуры для задачи сокращения обучающих выборок. 

Целью работы является разработка метода сокращения обучающих выборок в 
системах распознавания. 


Постановка задачи. Пусть дано некоторое множество объектов Х = Жо ь, : ый} 


п — размер обучающей выборки, представленное в виде объединения непересекаю- 
1 
щихся множеств, называемых классами Х = (№, . Каждый объект описывается 


4=1 
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системой признаков Х; = Е В Имеется конечное множество объектов, в 


1 


каждом из которых известно, к какому классу он принадлежит. Необходимо построить 
новую сокращенную обучающую выборку объектов Х"= {х О А р п’ — раз- 
мер новой обучающей выборки. 


Описание метода 


В статье предлагается новый метод СиаОС (@т19-депзИу-сещег тефо4), целью 
которого является сокращение обучающей выборки для уменьшения машинного вре- 
мени на обучение. Идеей предлагаемого метода является наложение сетки на призна- 
ковое пространство, определение объектов выборки, принадлежащих каждой из клеток 
сетки, и их замена на объекты новой сокращенной обучающей выборки. Далее пред- 
ложено пошаговое описание предлагаемого метода. 

Шаг 1. Формирование сетки. Рассчитывается шаг клетки 5 по формуле: 


[5 (пах) - пвх) * (110) ]- 1) а 


5=|1+ 


2 


Г 
к* П (тах {х,} — шш{х,}) 
1=1 
где а — оператор округления до ближайшего целого значения, тах {х,} — максималь- 


ное значение 1-признака среди всех объектов выборки, шш{х,} — минимальное зна- 


чение 1-признака среди всех объектов выборки. 
Рассчитывается плотность клетки (количество объектов, попавших в клетку) 4 
по формуле: 
К 
[Папах{х, } - ших, * (110) +1) 
В | (2) 


[ах ы пав) 


Шаг 2. Формирование множества объектов клеток С;= \@„,С»,.... С, й где С, — 


Г объект 71 клетки. 

Если в 1 клетке количество объектов больше или равно плотности 4 и все объек- 
ты клетки принадлежат к одному классу, то рассчитывается центр текущей клетки, 
который является объектом Х’ новой сокращенной обучающей выборки Х”: 


Ь и 5 ря Ь В Ь, „ и . Ь т 
2 > 2 а, 2 |} (3) 


| Ст| < 4, то для клетки объект новой выборки не строится 


2,п-+1 


|61|> 4, то Х' = 


где р, — левая граница текущей клетки, В, „., — правая граница текущей клетки. 


В результате выполнения вышеуказанного алгоритма будет получена новая 
сокращенная обучающая выборка Х". 
Анализируя предложенный метод, можно выделить следующие особенности: 
1) обрабатываются только те клетки, в которых объекты принадлежат к одному 
классу И’: 
{б,бр С} Е И; (4) 


2) если в некоторой клетке находятся объекты, принадлежащие разным классам, 
то объект новой обучающей выборки не строится, поскольку такие клетки находятся 
на межклассовой границе и могут представлять собой шум; 
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3) объект новой обучающей выборки относится к тому же классу, что и объекты 
в клетке, по которым он был сформирован. 


Способы формирования объектов 
сокращенной обучающей выборки 


В зависимости от расположения объектов в клетке можно предложить несколько 
способов формирования объектов новой сокращенной обучающей выборки. 

1 Значения признаков объекта новой выборки рассчитываются как координаты 
центра текущей клетки: 
ИЕ Ти-+1 в’ Ра 58 О -В 
ХХ. = р и : (5) 
2 2 

2 Значения признаков объекта новой выборки рассчитываются как координаты 
центра масс объектов текущей клетки: 


|6! 15| 101 
2. мн РЗ >, ой Хе (6) 
2: 1=1 #=1 


ве о 
у [С | [Ст | [С1 | 


’ 


....о 


3 Значения признаков объекта новой выборки рассчитываются как координаты 
центра прямоугольника, описанного вокруг объектов текущей клетки: 


За: |7 и — тт $} тах $, ‚} —тт $. ;} тах о =. мовы, (7) 


а Й ....> 


2 2 2 


Отметим, что выбор способа формирования объектов сокращенной обучающей 
выборки зависит от решаемой задачи. В данной статье по результатам эксперименталь- 
ных исследований на тестовых данных производится выбор способа, рекомендованно- 
го к использованию для большинства прикладных задач. 


Теоретические оценки метода @парс 


Основу предлагаемого метода ОмарсС составляет выбор крайних объектов об- 
разов в признаковом пространстве и поочередное отнесение каждого из объектов вы- 
борки к одной из клеток сетки. Исходя из этого временная сложность предлагаемого 
метода равна О(п). 

Исходя из принципов построения сетки можно показать, что максимальное ко- 
личество клеток тах(; будет равно: 


неы тиц | (8) 
2 5 
Если предположить, что объекты сокращенной выборки будут построены по всем 
клеткам сетки, то количество объектов новой сокращенной выборки будет равно: 
п 


ти (9) 


Таким образом, количество объектов новой выборки в общем случае существен- 
но меньше количества объектов исходной выборки. 


Экспериментальные исследования 


Для оценки эффективности предложенного алгоритма @паОС был проведен срав- 
нительный анализ с методом ЗТОГР и АБМ на серии испытаний. В качестве входных 
данных использовалась обучающая выборка объектов двух классов с двумя призна- 
ками, распределенными по нормальному закону. Оценка эффективности выполняется 
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по количеству неверных классификаций. Для построения решающего правила исполь- 
зовался метод потенциальных функций [7]. На рис. 1 приведена зависимость количества 
неверно классифицированных объектов т от общего количества объектов исходной 
выборки п при площади пересечения 25%. 


700 
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400 —Ф_ \Узюр 


Е —=— \И9дгас 


—и_ \Мази 


100 200 300 400 500 1000 1500 2000 2500 


п 


Рисунок 1 — Зависимость количества неверно классифицированных объектов 
от общего количества объектов исходной выборки при площади пересечения 25% 


На рис. 2 приведена зависимость количества объектов построенных сокращен- 
ных обучающих выборок и’ от общего количества объектов исходной выборки п. Дан- 
ные являются усредненными по результатам 100 проведенных экспериментов. Для 
оценки качества классификации объектов методом СпарС с использованием пред- 
лагаемых способов формирования новых объектов сокращенной выборки была про- 
ведена сравнительная характеристика на ряде экспериментов. На рис. 3 приведена 
зависимость количества неверно классифицированных объектов т от общего коли- 
чества объектов исходной выборки п при площади пересечения 25%, где Уэтас1 — 
метод СпарС, когда значения признаков объекта новой выборки рассчитываются как 
координаты центра текущей клетки; Уэт4ас2 — метод СпарОС, когда значения призна- 
ков объекта новой выборки рассчитываются как координаты центра прямоугольника, 
описанного вокруг объектов текущей клетки; Уэт4с3 — метод ОпА,ОС, когда значения 
признаков объекта новой выборки рассчитываются как координаты центра масс объек- 
тов текущей клетки. 
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Рисунок 2 — Зависимость количества объектов построенных сокращенных 
обучающих выборок от общего количества объектов исходной выборки 


Анализ полученных результатов позволяет сделать вывод, что при увеличении 
размера обучающей выборки число неверно классифицированных объектов метода- 
ми ЭТОГР и АБМ значительно больше в сравнении с предложенным методом СиаОС. 
Также показано, что размер сокращенных обучающих выборок, полученных методами 
ЭТОГР и АБМ, значительно больше размера выборок, полученных предложенным 
методом @парсС. 
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Рисунок 3 — Зависимость количества неверно классифицированных объектов 
от способов формирования объектов обучающих выборок 


Выводы 


В данной статье предложен новый метод ОпарОС сокращения объектов обучаю- 
щих выборок. Он основывается на использовании сетчатых методов, которые до этого 
времени применялись только для решения задач кластеризации. Описана общая схема 
метода, предложен принцип расчета шага сетки и способы формирования объектов 
новой сокращенной обучающей выборки. Показано, что предложенный метод имеет 
линейную временную сложность и позволяет существенно уменьшить количество 
объектов в выборке. По результатам проведенных исследований показана эффектив- 
ность метода ОтАОС в сравнении с известными методами ЭТОГР и АОМ по качеству 
классификации и размеру получаемых выборок. 
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Метод скорочення навчальних вибфрок Ста)С 

Метою роботи е розробка методу скорочення навчальних вибтрок у системах розшзнавання. Запропоновано 
новий метод скорочення навчальних вибтрок СПАС (Сп9-депзйу-сещег плефод), який базуеться на покритт! 
ознакового простору сткою 1 знаходженн! единого об’екта клтки як об’екта ново! навчально! вибрки. 
Запропоновано принцип формування стки 1 способи побудови об’ектв скорочено! навчально! вибрки. 
Для визначення ефективност! запропонованого методу проведений пор1вняльний експериментальний 
анал!з з вдомими методами скорочення навчальних виб1рок, що показав ефективнисть методу @парС. 


ТИ. Огоза, Е.Г. Госйепко 

А Мео4 оЁ 1е Ведисвоп о{ Пе Теасншо ЗаесНоп$ Ста)сС 

А 2119-депзНу-сетщег тефо4 оЁ Фе тедасйоп оЁ Фе 1еасб ше зеесНоп$ ш Фе гесози оп зузеплв 15 ргорозе4. № 
1$ Базе оп соуегасе оЁ срагасег расе ап4 оп йпате е итаае об]есё оРа сазе аз оБ]есё оЁ пе\\ {еасбте 
з@есНоп$. Рипср!е оЁ Ююпише оЁ Фе еп апа тефо4$ оЁ пе сопзбгасНоп оЁ Фе об]есё5 оЁ БпеЁ ЧеасЬ ше 
з@есНоп аге оеге4. Рог сасшайоп оР Фе еЁйслепсу оРФфе оНеге4 пле#о4 а сотрагануе ехрегипепа! апа]уз1$ 1$ 
сопдисе4 ул Фе Кпо\п пефо6$. 'ТБе апа[узез Вауе збо\уп фай Фе пефо4 шсгеазез ассигасу фе с1азхсаноп 
ап4 десгеазе Ше [епо В оЁ Те {еасыштз з@есНопз. 
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